実験6: GPT-4Vを使ってDALL-E3で画像を作る(Image to Image)
ホネホネの各要素の文章をより詳細にしたら出力結果はどうなるか?を検証する
以下のホネホネを使う
結果
Case1. 情報量の少ないシンプルな画像
https://scrapbox.io/files/655952662b412b001c287702.png
結果
プロンプト
https://scrapbox.io/files/655b183520f7d1001b6a3d98.png
シンプルな短かいプロンプトが得られた
画像
https://scrapbox.io/files/655b173e54ee25001c222b5e.png
実験5より明らかに劣る画像
せっかく秋刀魚になったが、逆戻りしている
大根おろしを認識できず、わさびのようなものになっている
出力結果に揺らぎが大きい
短い文章だと、精度が落ちる可能性が示唆される
実験5
https://scrapbox.io/files/655ad35a03dfa9001cf22277.png
実験4
https://scrapbox.io/files/655a0da297d4f2001be35a3e.png
実験3
https://scrapbox.io/files/6559848157594d001bdd0c89.png
実験2
https://scrapbox.io/files/655984cd688044001cfa5946.png
実験1
https://scrapbox.io/files/65597e1df8ce63001bb4b1a4.png
Case2. 情報量が普通の画像
https://scrapbox.io/files/65595279a251ab001b53ad25.jpg
結果
プロンプト
https://scrapbox.io/files/655b1956962399001c7889ef.png
Case1と同様に、短いコンパクトな文章が得られた。
画像
https://scrapbox.io/files/655b19eafaf7c4001c5d08d3.png
実験5と比較すると、精度が劣るという結果であった。
出力に以下の揺らぎがある
ドレスの色、姿勢、犬の形/色、太陽の様子など
短い文章での指示は、具体さが欠けて、DALL-E3に任せてしまう余地を含むため、ゆらいでしまうのか?
実験5
https://scrapbox.io/files/655ad6d9356f71001cb53dd3.png
実験4
https://scrapbox.io/files/655a146af58cf3001b510875.png
実験3
https://scrapbox.io/files/655a04c667c3d4001c0d8b8f.png
実験2
https://scrapbox.io/files/655977b17c65f9001b5fdf72.png
実験1:
https://scrapbox.io/files/655981593b8aed001c1e02b1.png
Case3. 情報量が多い画像
https://scrapbox.io/files/6559529206146d001b94d063.jpg
結果
プロンプト
https://scrapbox.io/files/655b1b2520c303001c8cf993.png
短いコンパクトな文章が得られた
画像
https://scrapbox.io/files/655b1bb2338fe2001cd705a7.png
実験5より精度は劣っている
出力結果に揺らぎがある
実験5
https://scrapbox.io/files/655aefbdc5f9a1001c4c9d09.png
実験4
https://scrapbox.io/files/655a27c1f507a3001cef543a.png
実験3
https://scrapbox.io/files/655a07bcaba1d5001b393ffe.png
実験2
https://scrapbox.io/files/65597cadf0d190001df4ba23.png
実験1
https://scrapbox.io/files/65597d7c2b412b001c29c976.png
考察
短いプロンプトは、DALL-E3の出力に揺らぎが発生しており、実験5の長いプロンプトより精度が落ちている。
具体性に欠けることが、曖昧な領域を多く生んでしまっていることが原因と考えられる。